45 research outputs found
Composite repetition-aware data structures
In highly repetitive strings, like collections of genomes from the same
species, distinct measures of repetition all grow sublinearly in the length of
the text, and indexes targeted to such strings typically depend only on one of
these measures. We describe two data structures whose size depends on multiple
measures of repetition at once, and that provide competitive tradeoffs between
the time for counting and reporting all the exact occurrences of a pattern, and
the space taken by the structure. The key component of our constructions is the
run-length encoded BWT (RLBWT), which takes space proportional to the number of
BWT runs: rather than augmenting RLBWT with suffix array samples, we combine it
with data structures from LZ77 indexes, which take space proportional to the
number of LZ77 factors, and with the compact directed acyclic word graph
(CDAWG), which takes space proportional to the number of extensions of maximal
repeats. The combination of CDAWG and RLBWT enables also a new representation
of the suffix tree, whose size depends again on the number of extensions of
maximal repeats, and that is powerful enough to support matching statistics and
constant-space traversal.Comment: (the name of the third co-author was inadvertently omitted from
previous version
Practical Evaluation of Lempel-Ziv-78 and Lempel-Ziv-Welch Tries
We present the first thorough practical study of the Lempel-Ziv-78 and the
Lempel-Ziv-Welch computation based on trie data structures. With a careful
selection of trie representations we can beat well-tuned popular trie data
structures like Judy, m-Bonsai or Cedar
Contribuciones a las bases de datos no convencionales
El advenimiento de las ciencias de la computación a todos los ámbitos de la vida moderna, ha exigido el desarrollo de aplicaciones que satisfagan los requerimientos de distintos tipos de usuarios, desde campos muy dispares, adaptándose a todo tipo de exigencias para lograr un alcance masivo. Claramente, esto implica lograr manipular eficientemente datos no convencionales muy disímiles como: huellas digitales, imágenes, audio, secuencias de ADN, texto, video, etc. Como las soluciones tradicionales no suelen hacer frente a tales requerimientos, es necesario utilizar depósitos especializados y búsquedas no exactas sobre estos tipos de datos.
Además de proveer una respuesta rápida y adecuada a dichas demandas, es necesario un uso eficiente del espacio disponible, y al considerar bases de datos masivas, las estructuras en particular serán estructuras de datos con I/O eficiente. Las Bases de Datos Métricas son uno de los modelos generales en los cuales se pueden utilizar estructuras de datos especializadas que contemplen estos aspectos. Los lenguajes de consulta no siempre poseen el poder expresivo necesario para reflejar las consultas consideradas de interés. Así, nuestra investigación pretende contribuir a consolidar este nuevo modelo de bases de datos desde varias perspectivas.Eje: Bases de datos y Minería de datos.Red de Universidades con Carreras en Informática (RedUNCI
Bases de datos no convencionales : Índices y operaciones
Debido a que en la actualidad se generan gran cantidad de datos digitales, desde fuentes muy disimiles, los repositorios especializados en datos no estructurados se vuelven cada vez más necesarios. Por este motivo, los mismos deben adaptarse rápidamente, para administrar de manera eficiente el gran volumen de datos generados, al igual que el tipo de requerimientos al que son sometidos los mismos; éstos pueden ser tan dispares como los tipos de datos que puede ser necesario administrar, dado que pertenecen a campos muy diferentes. Para ello, se investigan distintos aspectos relacionados con este tipo de bases de datos, como la administración del espacio disponible, que se vuelve crucial debido a la gran cantidad de datos que se debe manipular; formas más sofisticadas de búsqueda sobre las mismas, que permitan enfrentar tales requerimientos; optimización de estos depósitos, o desarrollo de nuevos, considerando incluso la arquitectura del procesador. Un modelo de base de datos no convencionales que se adapta a tales requerimientos, en el cual se pueden utilizar métodos de acceso que contemplen estos aspectos, son las Bases de Datos Métricas. Esta investigación pretende contribuir a la madurez de este nuevo modelo de bases de datos considerando distintas perspectivas.Eje: Bases de Datos y Minería de Datos.Red de Universidades con Carreras en Informátic
Bases de datos no convencionales: índices y lenguajes de consulta
En la actualidad es muy común suministrar una imagen a un buscador y esperar que este localice, imágenes parecidas a la provista. Escenarios como este requieren el desarrollo de aplicaciones capaces de manipular datos no convencionales como imágenes, audio, video, secuencias de ADN, texto, huellas digitales, etc., almacenarlos y obtener información desde ellos, para responder eficientemente consultas que realicen los usuarios. Claramente, es necesario utilizar depósitos especializados de datos y técnicas de búsquedas no exactas sobre ellos, porque las soluciones tradicionales no permiten hacer frente a tales requerimientos. En este ámbito es muy raro comparar por igualdad exacta, siendo generalmente las consultas por objetos similares a uno dado. Por lo tanto, ademas de requerir una respuesta rápida y adecuada y un eficiente uso del espacio disponible, es necesario utilizar modelos generales en los cuales se puedan utilizar estructuras de datos especializadas que contemplen estos aspectos, como lo son las Bases de Datos Métricas y que si se consideran bases de datos masivas, dichas estructuras en particular sean, en particular, estructuras de datos con I/O eficiente. Otro aspecto importante son los lenguajes de consulta, necesarios para la manipulación de una base de datos, que no siempre poseen el poder expresivo necesario para expresar las consultas consideradas de interés en este modelo. Así, nuestra investigación pretende contribuir a la consolidación de este nuevo modelo de bases de datos.Eje: Base de Datos y Minería de DatosRed de Universidades con Carreras en Informática (RedUNCI
Bases de datos no convencionales: índices y lenguajes de consulta
En la actualidad es muy común suministrar una imagen a un buscador y esperar que este localice, imágenes parecidas a la provista. Escenarios como este requieren el desarrollo de aplicaciones capaces de manipular datos no convencionales como imágenes, audio, video, secuencias de ADN, texto, huellas digitales, etc., almacenarlos y obtener información desde ellos, para responder eficientemente consultas que realicen los usuarios. Claramente, es necesario utilizar depósitos especializados de datos y técnicas de búsquedas no exactas sobre ellos, porque las soluciones tradicionales no permiten hacer frente a tales requerimientos. En este ámbito es muy raro comparar por igualdad exacta, siendo generalmente las consultas por objetos similares a uno dado. Por lo tanto, ademas de requerir una respuesta rápida y adecuada y un eficiente uso del espacio disponible, es necesario utilizar modelos generales en los cuales se puedan utilizar estructuras de datos especializadas que contemplen estos aspectos, como lo son las Bases de Datos Métricas y que si se consideran bases de datos masivas, dichas estructuras en particular sean, en particular, estructuras de datos con I/O eficiente. Otro aspecto importante son los lenguajes de consulta, necesarios para la manipulación de una base de datos, que no siempre poseen el poder expresivo necesario para expresar las consultas consideradas de interés en este modelo. Así, nuestra investigación pretende contribuir a la consolidación de este nuevo modelo de bases de datos.Eje: Base de Datos y Minería de DatosRed de Universidades con Carreras en Informática (RedUNCI
Aportes al modelo de bases de datos métricas
La computación se ha vuelto indispensable en cualquier ámbito de la vida moderna: ciencias, arte, educación, finanzas, diversión, etc., por lo que se hizo prioritario el desarrollo de aplicaciones capaces de manipular casi cualquier tipo de datos. Para lograr un alcance masivo, muchas de estas aplicaciones son cada vez más intuitivas; por ejemplo, es común ingresar una imagen o un trozo de canción a un buscador y esperar que éste muestre imágenes o canciones parecidas a la provista.
Claramente, para lograr la manipulación eficiente de datos como imágenes, audio, video, secuencias de ADN, texto, huellas digitales, etc., es necesario utilizar depósitos especializados y técnicas de búsquedas no exactas sobre ellos, ya que las soluciones tradicionales no permiten hacer frente a tales requerimientos. Las Bases de Datos Métricas son uno de los modelos generales en los cuales se pueden utilizar estructuras de datos especializadas que contemplen estos aspectos. Además de proveer una respuesta rápida y adecuada, será necesario un eficiente uso del espacio disponible, y si se consideran bases de datos masivas, dichas estructuras en particular serán estructuras de datos con I/O eficiente.
Otro aspecto importante son los lenguajes de consulta, necesarios para la manipulación de una base de datos, que no siempre poseen el poder expresivo necesario para reflejar las consultas consideradas de interés en este modelo.
Así, nuestra investigación pretende contribuir a la consolidación de este nuevo modelo de bases de datos.Eje: Bases de Datos y Minería de DatosRed de Universidades con Carreras en Informática (RedUNCI
Bases de datos no convencionales: índices y lenguajes de consulta
En la actualidad es muy común suministrar una imagen a un buscador y esperar que este localice, imágenes parecidas a la provista. Escenarios como este requieren el desarrollo de aplicaciones capaces de manipular datos no convencionales como imágenes, audio, video, secuencias de ADN, texto, huellas digitales, etc., almacenarlos y obtener información desde ellos, para responder eficientemente consultas que realicen los usuarios. Claramente, es necesario utilizar depósitos especializados de datos y técnicas de búsquedas no exactas sobre ellos, porque las soluciones tradicionales no permiten hacer frente a tales requerimientos. En este ámbito es muy raro comparar por igualdad exacta, siendo generalmente las consultas por objetos similares a uno dado. Por lo tanto, ademas de requerir una respuesta rápida y adecuada y un eficiente uso del espacio disponible, es necesario utilizar modelos generales en los cuales se puedan utilizar estructuras de datos especializadas que contemplen estos aspectos, como lo son las Bases de Datos Métricas y que si se consideran bases de datos masivas, dichas estructuras en particular sean, en particular, estructuras de datos con I/O eficiente. Otro aspecto importante son los lenguajes de consulta, necesarios para la manipulación de una base de datos, que no siempre poseen el poder expresivo necesario para expresar las consultas consideradas de interés en este modelo. Así, nuestra investigación pretende contribuir a la consolidación de este nuevo modelo de bases de datos.Eje: Base de Datos y Minería de DatosRed de Universidades con Carreras en Informática (RedUNCI
Run-Length Compressed Indexes Are Superior for Highly Repetitive Sequence Collections
A repetitive sequence collection is one where portions of a
base sequence of length n are repeated many times with small variations,
forming a collection of total length N. Examples of such collections are
version control data and genome sequences of individuals, where the differences
can be expressed by lists of basic edit operations. This paper
is devoted to studying ways to store massive sets of highly repetitive
sequence collections in space-efficient manner so that retrieval of the
content as well as queries on the content of the sequences can be provided
time-efficiently. We show that the state-of-the-art entropy-bound
full-text self-indexes do not yet provide satisfactory space bounds for
this specific task. We engineer some new structures that use run-length
encoding and give empirical evidence that these structures are superior
to the current structures
Flexible Indexing of Repetitive Collections
Highly repetitive strings are increasingly being amassed by genome sequencing experiments, and by versioned archives of source code and webpages. We describe practical data structures that support counting and locating all the exact occurrences of a pattern in a repetitive text, by combining the run-length encoded Burrows-Wheeler transform (RLBWT) with the boundaries of Lempel-Ziv 77 factors. One such variant uses an amount of space comparable to LZ77 indexes, but it answers count queries between two and four orders of magnitude faster than all LZ77 and hybrid index implementations, at the cost of slower locate queries. Combining the RLBWT with the compact directed acyclic word graph answers locate queries for short patterns between four and ten times faster than a version of the run-length compressed suffix array (RLCSA) that uses comparable memory, and with very short patterns our index achieves speedups even greater than ten with respect to RLCSA